Mamba 架构上顶会ICLR 2026,AI大脑核心Transformer的王座还能坐稳吗?
Transformer架构的计算复杂度和序列长度的二次方成正比。你要处理的文本长度增加一倍,计算量就要翻四倍。同时,它的内存占用也随着序列长度线性增长。用它实现AGI,能源和算力需求不可想象。
transformer 王座 mamba mamba架构 架 2025-10-14 20:06 1
Transformer架构的计算复杂度和序列长度的二次方成正比。你要处理的文本长度增加一倍,计算量就要翻四倍。同时,它的内存占用也随着序列长度线性增长。用它实现AGI,能源和算力需求不可想象。
transformer 王座 mamba mamba架构 架 2025-10-14 20:06 1
至今为止 Transformer 架构依然是 AI 模型的主流架构,自从其确立了统治地位后,号称 Transformer 杀手的各类改进工作就没有停止过。
transformer iclr transformer杀手 2025-10-14 18:29 2
最近那个Mamba-3刷屏了,但上来就说投ICLR 2026也太扯了,这是穿越了?
华人 transformer cmu cmu华人 首代 2025-10-14 17:55 1
当大家还在卷 100B、1000B 的时候,三星蒙特利尔研究院把“大模型”三个字直接拍扁——两层 Transformer、7.3×10⁷ 参数,循环 16 圈,就把 ARC-AGI-1 榜单拉到 45%,比 6710 亿参数的 DeepSeek-R1 高出近
模型 推理 transformer 工厂 trm 2025-10-13 08:10 1
这个国庆假期,Sora 2引爆了整个AI圈子。当地时间9月30日,OpenAI正式推出了视频生成大模型Sora 2,并同步推出社交应用。Sora 2是一个原生的视频和音频生成模型,与前一版本相比在物理上更准确、更逼真、更可控,并实现了同步生成音频和对话的能力。
视频 模型 openai transformer sora 2025-10-10 01:02 2
2008年1月1日凌晨1点59分,加利福尼亚州卡利帕特里亚发生了一次地震。你可能从未听说过这次地震;即使你当时住在卡利帕特里亚,也不会感觉到任何震动。这次地震的震级为-0.53级,产生的震动相当于一辆卡车经过时的震动。然而,这次地震值得注意,不是因为它强度大,
地震 transformer 眼镜 伯恩斯 p波 2025-10-11 17:10 1
作为卖家,您需要确保在欧盟市场销售的产品符合欧盟法规及协调标准的要求。本文根据EN 62115、EN71系列的协调标准,整理了儿童电动玩具的说明书部分内容示例,供卖家了解适用产品的说明书中需要注明的一些信息要求。本文的参考示例不构成该类商品说明书的详尽内容,请
儿童 transformer 欧盟 电动玩具 儿童电动玩具 2025-10-10 17:52 2
大型智能系统的发展速度之快,几乎让人难以跟上。新的架构和模型层出不穷,每一次迭代都可能重塑行业格局。OpenAI 刚刚发布的 Sora 2,就是这种快速演进的最新例证——它不仅展示了模型能力的提升,也折射出智能系统迭代之迅猛和复杂。
transformer kaiser 李建忠 lukasz 2025-10-10 20:34 1
如果说能源定义了工业文明的上限,那么算力就决定了智能时代的边界。过去70年,算力架构从冯·诺依曼模型出发,经历了三次革命:从单核指令流,到分布式集群,再到AI驱动的智能算力体系。
架构 transformer gpu 诺依曼 指令流 2025-10-10 02:35 2
昨日,以色列AI创企AI21 Labs开源轻量级推理模型Jamba Reasoning 3B。该模型有30亿个参数,可在包括手机、电脑在内的多种设备端运行,性能超过Qwen3-4B、Gemma 3-4B等业界顶尖模型。
智能体 开源 transformer qwen gemma 2025-10-09 18:40 3
2017年,Transformer架构的诞生彻底改变了深度学习领域,为当今大语言模型的蓬勃发展奠定了坚实基础。作为这一划时代论文的作者之一,Llion Jones如今带着他的初创公司Sakana AI再次带来突破性成果——开源框架ShinkaEvolve,为进
开源 transformer l transformer作者 2025-10-09 09:41 2
美国当地时间9月30日,OpenAI正式发布其新一代视频生成模型Sora 2,该模型在画面、物理逻辑实现跨越式突破。与此同时,OpenAI在苹果应用商店App Store美国区上线了将Sora 2与社交功能集于一身的App——Sora。短短4天,该App登顶美
模型 openai 行业 transformer sora 2025-10-09 08:13 2
Hugging Face联合创始人兼首席科学官Thomas Wolf的最新表态,如同一盆凉水,浇醒了AI科学潜力论的热烈叙事。他在CNBC访谈中直言,现有的transformer-based模型,如OpenAI的ChatGPT系列,无法催生诺贝尔级别的科学发现
模型 科学 transformer wolf amodei 2025-10-05 07:46 2
2024年中国人工智能产业迎来爆发式增长,核心产业规模首次突破9000亿元大关,较上年实现24%的高速增幅,这一数据来自中国信息通信研究院在2025人工智能产业及赋能新型工业化大会上发布的权威测算。截至2025年9月,国内AI企业数量已突破5300家,在全球近
企业 文心 transformer 应用层 基础层 2025-10-05 05:44 2
在人工智能以前所未有的速度席卷全球之际,一个根本性的矛盾正日益凸显:科技巨头们正准备投入数万亿美元,加速一场基于我们尚不完全理解的技术的竞赛。当前的大型语言模型(LLM)如同一个深邃的“黑箱”,其内部运作逻辑的模糊性,已成为阻碍人工智能在医疗、金融等高风险领域
研究 人工智能 llm transformer 幼雏 2025-10-03 20:43 3
GPT(Generative Pre-trained Transformer)系列模型是基于Transformer 架构的生成式大语言模型,核心逻辑可拆解为 “预训练 - 微调” 两大阶段,通过 “理解语境 - 预测下一个词” 的方式实现自然语言生成,以下从技
模型 gpt transformer 向量 token 2025-09-30 15:21 2
咱可以把Transformer理解成一个聪明的信息处理系统。里面的注意力机制,干的是“侦察兵”的活儿。
transformer ffn transformer灵魂 2025-09-30 13:38 2
在数字人文与历史研究领域,浩如烟海的古籍文献是宝贵的文化遗产。然而,如何让计算机自动“读懂”这些布局复杂、版式多变的古籍,精确地识别出其中的标题、段落、注释、插图等元素,一直以来都是一个巨大的挑战。传统的深度学习方法(如 Faster R-CNN 、YOLO
论文 transformer 双流 古籍 giou 2025-09-27 20:11 2
大家可能已经习惯了把长文档丢给Kimi分析总结,或者是打开豆包,让它搜索想了解的知识,又或者让ChatGPT用不同文风写文章。许多人暗暗惊叹过:为什么这玩意儿如此智能?
模型 transformer rnn bert chatgp 2025-09-26 15:18 3
本文总结了大模型领域常用的近100个名词解释,并按照模型架构与基础概念,训练方法与技术,模型优化与压缩,推理与应用,计算与性能优化,数据与标签,模型评估与调试,特征与数据处理,伦理与公平性、其他的分类进行了整理,以下供参考:
模型 学习 收藏 transformer 宝典 2025-09-25 22:51 3